認識瀏覽器

2023 iThome 鐵人賽

DAY 3

AI & Data

15th鐵人賽

566 瀏覽

為什麼要認識瀏覽器勒?因為我們在進行網路爬蟲時，第一個步驟就是需要使用瀏覽器，來瀏覽我們想要爬取的網頁，並且在網頁中選取有用的資料，再依照平常瀏覽網頁的過程，例如說進到網頁時會先逐筆的看完所有商品，再跳下一頁繼續觀看，這個過程就等於是網路爬蟲代替我們爬取資料。

HTTP通訊協定

使用HTTP通訊協定，當你輸入網址(URL)時，實際上是向Web伺服器發送HTTP Request（請求），這種請求通常是一個GET（取得資料）請求，然後伺服器會回應您的請求，並返回HTTP Response（回應）。

當瀏覽器接收到伺服器回應的HTML網頁後，就會將網頁內容剖析，並且建立樹狀結構(DOM)，而樹狀結構是一種階層結構的標籤，每個標籤都是成對的。使用格式方法:<標籤名稱>…</標籤名稱>，結尾記得要加上/符號。

<html>
<head>
	<title>…</title>
<head>

<body>
<div>
	<h1>…</h1>
	<p>…</p>
</div>
</body>
</html>

最後，瀏覽器會根據伺服器返回的HTML和CSS內容，來呈現我們在瀏覽器中看到的網頁畫面。

圖片來源
https://hackmd.io/@cws0701/BJW6JLg5q

參考資料
https://medium.com/pierceshih/%E7%AD%86%E8%A8%98-%E4%BD%95%E8%AC%82-http-%E5%82%B3%E8%BC%B8%E5%8D%94%E5%AE%9A-1d9b5be3fd24

系列文

30天零基礎學習網路爬蟲共 30 篇

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

IT邦幫忙